seo - گوگل چگونه نتایج را جمع کرده و امتیازدهی می¬کند - پیمایش و اندیس گذاری
- گوگل چگونه نتایج را جمع کرده و امتیازدهی می¬کند - پیمایش و اندیس گذاری
یکی از رایج ترین سوالاتی که معمولا شنیده میشود این است که گوگل چگونه تصمیم میگیرد چه نتایجی در بالای لیست بیاید و کدام یک امتیاز پایین تری داشته باشند. در اینجا توضیحاتی ابتدایی از مهندسی کیفیت Matt Cutts ارائه شده که چگونگی پیمایش و اندیس گذاری و نهایتاً امتیازدهی نتایج جست و جو را تعیین میکند.
1-1- پیمایش و اندیس گذاری
قبل از اینکه شما یک صفحه وب شامل نتایج جست و جوی گوگل ببینید ، چیزهای زیادی باید اتفاق بیافتد. گام اول ما پیمایش و اندیس گذاری بیلیونها صفحهی وب است. این کار توسط GoogleBot یا عنکبوت انجام میشود که به سرویس دهندههای و ب اطراف جهان برای بازیابی اسناد متصل است. برنامهی پیمایش واقعاً وب را نمیگردد. در اصل از سرویس دهندهی وب میخواهد تا صفحات وب مشخصی را برگرداند. سپس این صفحات را به دنبال فوق پیوند ها میپیماید ، که اسناد جدیدی را که به همان روش بازیابی شده اند را بر میگرداند.
عنکبوت ( خزنده ) به هر صفحهی بازیابی شده عددی میدهد به طوریکه به صفحه ای که بازیابی شده اشاره دارد. در نتیجهی پیمایش، مجموعهی عظیمی از اسناد جمع آوری میشود ولی این اسناد هنوز قابل جست و جو نیستند. بدون اندیس اگر بخواهید اصطلاحی مثل \"جنگ سرد\" را پیدا کنید ، سرویس دهنده باید هر بار که جست و جو میکنید ، متن کامل تک تک اسناد را بخواند تا این اصطلاح را پیدا کند.
بنابراین گام بعدی ساخت یک اندیس است. برای این منظور دادههای پیمایش برعکس میشوند.
به جای پیمایش برای هر کلمه در هر سند دادهها را برای لیست کردن هر سند که شامل یک کلمهی معین است به کار میگیریم.
مثلا کلمهی \"جنگ\" ممکن است در اسناد 3 ، 8 ، 22 ، 56 ، 68 و 92 باشد. در حالی که کلمهی \"سرد\" در اسناد 2 ، 8 ، 15 ، 22 ، 68 و 77 است. هنگامی که اندیس ساخته میشود آماده ایم که اسناد را رتبه بندی کنیم و تعیین کنیم تا چه اندازه به موضوع جست و جو مرتبط هستند. فرض کنید شخصی وارد گوگل شده و عبارت \"جنگ سرد\" را وارد میکند. برای نمایش و امتیازدهی نتایج 2 کار باید انجام دهیم:
1. مجموعه صفحاتی که حاوی پرس و جوی کاربر هستند را پیدا کنید.
2. صفحات مطابق را برای پیدا کردن میزان انطباق رتبه بندی کنید.
حقهی جالبی برای افزایش سرعت گام اول در نظر گرفته شده است : به جای ذخیرهی کل اندیس روی یک کامپیوتر قدرتمند ، گوگل از صدها کامپیوتر برای انجام کار استفاده میکند و چون کار بین چندین ماشین تقسیم میشود ، پاسخ سریع تر برگردانده میشود.
برای تشریح این مسئله بیایید فرض کنیم یک 30 صفحه ای داریم با یک اندیس. اگر شخص بخواهد چند بخش از اطلاعات را در اندیس ذخیره کند هر جست و جو حداقل چند ثانیه طول میکشد. حالا اگر هر صفحه از اندیس را به هر شخص دهیم چه میشود ؟ 30 نفر میتوانند سریع تر جست و جو را انجام دهند تا اینکه کل اندیس را یک نفر به تنهایی بگردد.
هم چنین گوگل برای پیدا کردن سریع اسناد منطبق با پرس و جو ، دادههایش را بین بسیاری از ماشینها تقسیم میکند. چگونه صفحاتی که حاوی پرس و جوی کاربر هستند را پیدا کنیم ؟ بیایید به مثال \"جنگ سرد\" بر گردیم. کلمهی سرد در اسناد 3 ، 8 ، 22 ، 56 ، 68 و 92 بود. اکنون بیایید کلمات را جداگانه بنویسیم و محل هر دو کلمه را بیابیم :
جدول (1-1) مثالی از پیدا کردن سریع اسناد منطبق با پرس و جو
جنگ
2
8
15
22
68
77
سرد
3
8
22
56
68
92
جنگ سرد
8
22
68
مرتب سازی اسناد به این شکل مشخص میکند که کلمات \"جنگ\" و \"سرد\" در سه سند 8،22 و 68 قرار دارند. لیست اسنادی که شامل یک کلمه هستند لیست Posting نام دارند و جست و جو به دنبال اسنادی با 2 کلمه قطع کردن لیست Posting نام دارد. یک راه سریع برای قطع کردن 2 لیست Posting حرکت هم زمان در هر 2 لیست است. اگر یک لیست از سند 22 به 68 برود ، میتوانیم در لیست دیگر از اسناد دیگر رد شده و مستقیم به سند 68 برویم ]8[.